项目数据源是Prosper的数据。Prosper是美国一家不同于传统借贷的P2P借贷服务的公司,服务内容是借款人通过平台选择借款,投资人出借资金给借款人获取投资收益,而公司收益是从贷方和借方收取服务费。本次项目是站在投资人的角度,投资的收益是从借款人如约还款来实现,利用EDA的思路分析投资价值——因此需要分析借款人的借款信息和还款信息,期望能够证实P2P借贷方式存在投资价值。
## 'data.frame': 113937 obs. of 81 variables:
## $ ListingKey : chr "1021339766868145413AB3B" "10273602499503308B223C1" "0EE9337825851032864889A" "0EF5356002482715299901A" ...
## $ ListingNumber : int 193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
## $ ListingCreationDate : chr "2007-08-26 19:09:29.263000000" "2014-02-27 08:28:07.900000000" "2007-01-05 15:00:47.090000000" "2012-10-22 11:02:35.010000000" ...
## $ CreditGrade : chr "C" "" "HR" "" ...
## $ Term : int 36 36 36 36 36 60 36 36 36 36 ...
## $ LoanStatus : chr "Completed" "Current" "Completed" "Current" ...
## $ ClosedDate : chr "2009-08-14 00:00:00" "" "2009-12-17 00:00:00" "" ...
## $ BorrowerAPR : num 0.165 0.12 0.283 0.125 0.246 ...
## $ BorrowerRate : num 0.158 0.092 0.275 0.0974 0.2085 ...
## $ LenderYield : num 0.138 0.082 0.24 0.0874 0.1985 ...
## $ EstimatedEffectiveYield : num NA 0.0796 NA 0.0849 0.1832 ...
## $ EstimatedLoss : num NA 0.0249 NA 0.0249 0.0925 ...
## $ EstimatedReturn : num NA 0.0547 NA 0.06 0.0907 ...
## $ ProsperRating..numeric. : int NA 6 NA 6 3 5 2 4 7 7 ...
## $ ProsperRating..Alpha. : chr "" "A" "" "A" ...
## $ ProsperScore : num NA 7 NA 9 4 10 2 4 9 11 ...
## $ ListingCategory..numeric. : int 0 2 0 16 2 1 1 2 7 7 ...
## $ BorrowerState : chr "CO" "CO" "GA" "GA" ...
## $ Occupation : chr "Other" "Professional" "Other" "Skilled Labor" ...
## $ EmploymentStatus : chr "Self-employed" "Employed" "Not available" "Employed" ...
## $ EmploymentStatusDuration : int 2 44 NA 113 44 82 172 103 269 269 ...
## $ IsBorrowerHomeowner : chr "True" "False" "False" "True" ...
## $ CurrentlyInGroup : chr "True" "False" "True" "False" ...
## $ GroupKey : chr "" "" "783C3371218786870A73D20" "" ...
## $ DateCreditPulled : chr "2007-08-26 18:41:46.780000000" "2014-02-27 08:28:14" "2007-01-02 14:09:10.060000000" "2012-10-22 11:02:32" ...
## $ CreditScoreRangeLower : int 640 680 480 800 680 740 680 700 820 820 ...
## $ CreditScoreRangeUpper : int 659 699 499 819 699 759 699 719 839 839 ...
## $ FirstRecordedCreditLine : chr "2001-10-11 00:00:00" "1996-03-18 00:00:00" "2002-07-27 00:00:00" "1983-02-28 00:00:00" ...
## $ CurrentCreditLines : int 5 14 NA 5 19 21 10 6 17 17 ...
## $ OpenCreditLines : int 4 14 NA 5 19 17 7 6 16 16 ...
## $ TotalCreditLinespast7years : int 12 29 3 29 49 49 20 10 32 32 ...
## $ OpenRevolvingAccounts : int 1 13 0 7 6 13 6 5 12 12 ...
## $ OpenRevolvingMonthlyPayment : num 24 389 0 115 220 1410 214 101 219 219 ...
## $ InquiriesLast6Months : int 3 3 0 0 1 0 0 3 1 1 ...
## $ TotalInquiries : num 3 5 1 1 9 2 0 16 6 6 ...
## $ CurrentDelinquencies : int 2 0 1 4 0 0 0 0 0 0 ...
## $ AmountDelinquent : num 472 0 NA 10056 0 ...
## $ DelinquenciesLast7Years : int 4 0 0 14 0 0 0 0 0 0 ...
## $ PublicRecordsLast10Years : int 0 1 0 0 0 0 0 1 0 0 ...
## $ PublicRecordsLast12Months : int 0 0 NA 0 0 0 0 0 0 0 ...
## $ RevolvingCreditBalance : num 0 3989 NA 1444 6193 ...
## $ BankcardUtilization : num 0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
## $ AvailableBankcardCredit : num 1500 10266 NA 30754 695 ...
## $ TotalTrades : num 11 29 NA 26 39 47 16 10 29 29 ...
## $ TradesNeverDelinquent..percentage. : num 0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
## $ TradesOpenedLast6Months : num 0 2 NA 0 2 0 0 0 1 1 ...
## $ DebtToIncomeRatio : num 0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
## $ IncomeRange : chr "$25,000-49,999" "$50,000-74,999" "Not displayed" "$25,000-49,999" ...
## $ IncomeVerifiable : chr "True" "True" "True" "True" ...
## $ StatedMonthlyIncome : num 3083 6125 2083 2875 9583 ...
## $ LoanKey : chr "E33A3400205839220442E84" "9E3B37071505919926B1D82" "6954337960046817851BCB2" "A0393664465886295619C51" ...
## $ TotalProsperLoans : int NA NA NA NA 1 NA NA NA NA NA ...
## $ TotalProsperPaymentsBilled : int NA NA NA NA 11 NA NA NA NA NA ...
## $ OnTimeProsperPayments : int NA NA NA NA 11 NA NA NA NA NA ...
## $ ProsperPaymentsLessThanOneMonthLate: int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPaymentsOneMonthPlusLate : int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPrincipalBorrowed : num NA NA NA NA 11000 NA NA NA NA NA ...
## $ ProsperPrincipalOutstanding : num NA NA NA NA 9948 ...
## $ ScorexChangeAtTimeOfListing : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanCurrentDaysDelinquent : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LoanFirstDefaultedCycleNumber : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanMonthsSinceOrigination : int 78 0 86 16 6 3 11 10 3 3 ...
## $ LoanNumber : int 19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
## $ LoanOriginalAmount : int 9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
## $ LoanOriginationDate : chr "2007-09-12 00:00:00" "2014-03-03 00:00:00" "2007-01-17 00:00:00" "2012-11-01 00:00:00" ...
## $ LoanOriginationQuarter : chr "Q3 2007" "Q1 2014" "Q1 2007" "Q4 2012" ...
## $ MemberKey : chr "1F3E3376408759268057EDA" "1D13370546739025387B2F4" "5F7033715035555618FA612" "9ADE356069835475068C6D2" ...
## $ MonthlyLoanPayment : num 330 319 123 321 564 ...
## $ LP_CustomerPayments : num 11396 0 4187 5143 2820 ...
## $ LP_CustomerPrincipalPayments : num 9425 0 3001 4091 1563 ...
## $ LP_InterestandFees : num 1971 0 1186 1052 1257 ...
## $ LP_ServiceFees : num -133.2 0 -24.2 -108 -60.3 ...
## $ LP_CollectionFees : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_GrossPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NetPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NonPrincipalRecoverypayments : num 0 0 0 0 0 0 0 0 0 0 ...
## $ PercentFunded : num 1 1 1 1 1 1 1 1 1 1 ...
## $ Recommendations : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsCount : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsAmount : num 0 0 0 0 0 0 0 0 0 0 ...
## $ Investors : int 258 1 41 158 20 1 1 1 1 1 ...
## [1] 113937 81
## [1] "AmountDelinquent"
## [2] "AvailableBankcardCredit"
## [3] "BankcardUtilization"
## [4] "BorrowerAPR"
## [5] "BorrowerRate"
## [6] "BorrowerState"
## [7] "ClosedDate"
## [8] "CreditGrade"
## [9] "CreditScoreRangeLower"
## [10] "CreditScoreRangeUpper"
## [11] "CurrentCreditLines"
## [12] "CurrentDelinquencies"
## [13] "CurrentlyInGroup"
## [14] "DateCreditPulled"
## [15] "DebtToIncomeRatio"
## [16] "DelinquenciesLast7Years"
## [17] "EmploymentStatus"
## [18] "EmploymentStatusDuration"
## [19] "EstimatedEffectiveYield"
## [20] "EstimatedLoss"
## [21] "EstimatedReturn"
## [22] "FirstRecordedCreditLine"
## [23] "GroupKey"
## [24] "IncomeRange"
## [25] "IncomeVerifiable"
## [26] "InquiriesLast6Months"
## [27] "InvestmentFromFriendsAmount"
## [28] "InvestmentFromFriendsCount"
## [29] "Investors"
## [30] "IsBorrowerHomeowner"
## [31] "LenderYield"
## [32] "ListingCategory..numeric."
## [33] "ListingCreationDate"
## [34] "ListingKey"
## [35] "ListingNumber"
## [36] "LoanCurrentDaysDelinquent"
## [37] "LoanFirstDefaultedCycleNumber"
## [38] "LoanKey"
## [39] "LoanMonthsSinceOrigination"
## [40] "LoanNumber"
## [41] "LoanOriginalAmount"
## [42] "LoanOriginationDate"
## [43] "LoanOriginationQuarter"
## [44] "LoanStatus"
## [45] "LP_CollectionFees"
## [46] "LP_CustomerPayments"
## [47] "LP_CustomerPrincipalPayments"
## [48] "LP_GrossPrincipalLoss"
## [49] "LP_InterestandFees"
## [50] "LP_NetPrincipalLoss"
## [51] "LP_NonPrincipalRecoverypayments"
## [52] "LP_ServiceFees"
## [53] "MemberKey"
## [54] "MonthlyLoanPayment"
## [55] "Occupation"
## [56] "OnTimeProsperPayments"
## [57] "OpenCreditLines"
## [58] "OpenRevolvingAccounts"
## [59] "OpenRevolvingMonthlyPayment"
## [60] "PercentFunded"
## [61] "ProsperPaymentsLessThanOneMonthLate"
## [62] "ProsperPaymentsOneMonthPlusLate"
## [63] "ProsperPrincipalBorrowed"
## [64] "ProsperPrincipalOutstanding"
## [65] "ProsperRating..Alpha."
## [66] "ProsperRating..numeric."
## [67] "ProsperScore"
## [68] "PublicRecordsLast10Years"
## [69] "PublicRecordsLast12Months"
## [70] "Recommendations"
## [71] "RevolvingCreditBalance"
## [72] "ScorexChangeAtTimeOfListing"
## [73] "StatedMonthlyIncome"
## [74] "Term"
## [75] "TotalCreditLinespast7years"
## [76] "TotalInquiries"
## [77] "TotalProsperLoans"
## [78] "TotalProsperPaymentsBilled"
## [79] "TotalTrades"
## [80] "TradesNeverDelinquent..percentage."
## [81] "TradesOpenedLast6Months"
## [1] "Show the unordinary variable name and index:"
## [1] "Loacation:"
## [1] 14
## [1] "Variable Name:"
## [1] "ProsperRating..numeric."
## [1] "Loacation:"
## [1] 15
## [1] "Variable Name:"
## [1] "ProsperRating..Alpha."
## [1] "Loacation:"
## [1] 17
## [1] "Variable Name:"
## [1] "ListingCategory..numeric."
## [1] "Loacation:"
## [1] 45
## [1] "Variable Name:"
## [1] "TradesNeverDelinquent..percentage."
数据结构结构及分析内容 该数据集的观测值为113937个,具有81个变量。变量信息包括了借款人的信息:借款人类似ID信息(MemberKey),借款人借款开始日期(LoanOriginationDate),借款人所在州(BorrowerState),收入范围(IncomeRange),债务收入比(DebtToIncomeRatio),职业(Occupation),借款人工作期间(EmploymentStatusDuration),借款人工作状态(EmploymentStatus),借款总额度(LoanOriginalAmount),还款策略(Term),账户信用等级(ProsperRatingAlpha),借款后经过月数(LoanMonthsSinceOrigination),交易数量(TotalTrades),未发生延期交易的比例(TradesNeverDelinquentpercentage);另一方面,承担借款额的投资人人数(Investor),投资款来自朋友的投资人数(InvestmentFromFriendsCount),来自朋友投资的投资额(InvestmentFromFriendsAmount)。
分析目的 分析过程主要是通过以上变量,以了解借款人的收入、债务信息的侧写到分析投资人在借款人中借款额度中影响,从两个方面去了解借款人的借款合理性、还款能力。以期待能了解Prosper借款用户的特点,分析其投资价值。
## # A tibble: 5 x 7
## DateMonth LoanMean LoanTotal LoanMedian Loan75 Loan25 LoanNumber
## <date> <dbl> <int> <dbl> <dbl> <dbl> <int>
## 1 2005-11-01 3676.923 47800 2500 4800 1000 13
## 2 2005-12-01 3431.889 30887 3000 3500 2689 9
## 3 2006-01-01 5640.000 45120 4750 7750 3000 8
## 4 2006-02-01 6196.356 452334 5000 8800 3000 73
## 5 2006-03-01 4542.449 1062933 3000 5000 2500 234
## # A tibble: 5 x 7
## DateMonth LoanMean LoanTotal LoanMedian Loan75 Loan25 LoanNumber
## <date> <dbl> <int> <dbl> <dbl> <dbl> <int>
## 1 2013-11-01 10994.75 47673231 10000 15000 5000 4336
## 2 2013-12-01 11732.21 61183465 10000 15000 6000 5215
## 3 2014-01-01 11786.46 69127601 10000 15000 6500 5865
## 4 2014-02-01 11964.88 53662504 10000 15000 6800 4485
## 5 2014-03-01 12187.39 22205431 10000 15000 7000 1822
分析Prosper平台上2005年11月至2014年3月份期间的借款额,从Fig 1每月借款额的变化和Fig 2每月交易数量展示结果:
整体趋势上,每月的借款额在增加。到2014年1月至2014年3月出现了借款总额快速降低的趋势(降低了近5亿),同时交易数量也快速萎缩
在2008年10月至2009年8月期间,线段平滑下降。经证实该平台发生了暂停交易,对平台交易可能存在影响;3)2009年8月至2013年10月是Prosper平台高速发展对阶段。从Fig 3每月借款对其他其他统计信息来看,平台的借款额表现还是比较优异——平均借款额的趋势也是在2009年3月之后开始快速提高,另外在小额借款一直发展缓慢,但是在6000以上的借款额度发展比较快速;在2013年10月之后小额借款快速发展。
从借款人的收入情况,开始借款的借款额度,Prosper的信用评级、借款人的工作时间,借款人借款时的工作状态、债务收入比以及职务分类等方面进行了分析,可以发现以下信息:
借款人收入情况 从Fig 4 收入范围分布和Fig 9 收入债务比中分析,显示在借款时的收入主要是收入在24,999以下的,另一方面中等收入(收入在50,000至99,999范围内)的借款也相对较高。推测在中等收入借款较高,可能和消费观念有关
借款额度方面 可以看出大部分的借款人借款额度都在15000以内,而且平均借款额度在8337左右。另外有借款额度过高的,超过了30000。推测大多人的借款额度没有超过他们的收入,关于这点需要从Fig 9收入债务比来分析,从图中可以看出主要的债务占收入的比重在0.5左右,有少量的借款人的债务占比还是过高达到了10以上,。对借款额度作为投资分析参数,还需要深入分析
Prosper信用评级方面 借款人的信用评级主要集中HR、E、D、C以及B之间,而在优质等级(A和AA)中发生借款的人数相对较少。可能是Prosper平台的信用评级较严格,这样可以提供一个良好的参数以方便投资人的投资选择。针对这个参数的参考,需要继续分析
借款人工作情况 从Fig 7借款人工作实线和Fig 8借款人借款状态来看,主要借款人是有工作的——全职工作人员和被雇佣的人员借款频次高。同时在工作时限上,可以看出工作了0——10年的借款人比较集中,因为这个时期恰好是身份转换等身份条件变化的时期。
借款人职务 从Fig 10展示的借款人的职务来看,职务信息不是很全面。因为在选择职务为Other的借款人明显偏多,不具有显著对分析作用。针对这一点,涉及到个人隐私等方面的问题。但是从其他数据职务数据来看受教育的借款人员——教授、编程工作人员、行政人员等,发生借款次数较多
## nondelinquent_percent
## [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7)
## 0.07724 0.14306 0.38179 0.50115 0.98563 3.22634 6.03930
## [0.7,0.8) [0.8,0.9) [0.9,1) [1,1.1)
## 8.43624 15.08729 21.89719 36.60356
因为投资人的收益是从借款人的还款中回收本金和赚取收益,因此如果发生了违反合约的情况时,将影响到投资人的收益情况。从Fig 11借款人未违反合约的比例和未违反合约比例的占总体比率,反应出发生违反合约的比例较少(完全未发生违约的比例占到了36.603%),可以看出在Prosper平台上的投资环境还是良性的。
## total_investor_count
## (0,100] (100,200] (200,300] (300,400]
## 81470 19372 7790 3119
## friend_investor_count
## 0 1 2 3 4 5 6 7 8 9
## 111806 1835 215 40 15 8 4 2 3 5
## 13 15 20 33
## 1 1 1 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 0.00 0.02 0.00 33.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 0.00 0.02 0.00 33.00
从投资人角度,主要分析Prosper平台上了解投资人对借款人的投资情况。Fig 12对借款人投资的人数和Fig 13借款来自于朋友投资人数,展示了相关信息: 1. 单笔借款投资人数 单笔投资人数主要是在100人以内,投资人的数量可能会和借款人的借款额度有相关性——低额度借款可能并不需要太多的投资人,相反高额度会需要多人投资。关于这点需要继续分析 2. 朋友投资 从Fig 13中可以看出,大部分的投资人数都是来自于非熟悉的投资人(完全来自于非朋友投资的交易数达到了111,806笔),也就是说大部分投资人在进行投资时,并没有以与被投资人是否为朋友关系为参考标准
单变量分析中,从投资平台的发展情况、发生借款时借款人信息以及投资人角度分别进行了分析。投资平台发展总体发展较快,但是在2014年1月至2014年3月期间借款额发生急剧萎缩,作为投资人需要注意该平台的后续发展;借款人角度方面,总体来看借款人在借款时处于合理的借款范围。且从违反合约的角度来看,还款情况还是在合理的,投资人的损失率还是较低——关于这点需要进行继续分析;投资人角度来看,投资人参考信息还是相对的理性。
## rawprosper$ProsperRatingAlpha: NA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2500 4500 6159 7904 25000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: HR
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 5850 10000 11460 15000 35000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: E
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 4000 6100 7083 10000 15000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: D
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 6000 10000 11622 15000 35000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: C
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 3600 4000 4586 5000 15900
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: B
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 5000 10000 10392 15000 25000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: A
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 6000 10940 11584 16000 35000
## --------------------------------------------------------
## rawprosper$ProsperRatingAlpha: AA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 3000 4000 3463 4000 16800
从不同信用等级和借款额度分析,各等级的主要贷款额度都是在4000至15000之间,最大借款额为35000,最小借款额为1000,其中AA级和C级的借款额度相对要小很多——AA级主要集中在3000-4000之间,C级主要集中在3500-5000之间。从Fig 15反应出了,低等级的借款人中存在大额度借款,从投资人的角度需要注意这类借款人是否值得投资,例如HR等级存在超过30000的借款。
# loan amount and income range
p1 <- ggplot(aes(x=IncomeRange, y=LoanOriginalAmount), data=rawprosper) +
geom_violin(fill="#FAF0E6") +
labs(y="Loan Amount", x="Income Range",
title="Fig 16 Loan Amount Of Different Income Range") +
scale_y_continuous(limits=c(0, 35000), breaks=seq(0, 35000, 2500)) +
my_theme
# theme(axis.text=element_text(size=6), plot.title=element_text(size=10, color="#006400"))
p2 <- ggplot(aes(LoanOriginalAmount), data=rawprosper) +
geom_histogram(color="white") +
facet_wrap(~IncomeRange, nrow=2, scale="free_y") +
labs(y="Freqency", x="Loan Amount", title="Fig 17 Histogram About Loan Amount Of Facet Income Range") +
theme(axis.text=element_text(size=6), plot.title=element_text(size=10, color="#006400"),
panel.grid.major.y=element_line(color="red", linetype=3, size=0.3))
grid.arrange(p1, p2, nrow=2)
by(rawprosper$LoanOriginalAmount, rawprosper$IncomeRange, summary)
## rawprosper$IncomeRange: $0
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 3000 5000 6178 9800 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: $1-24,999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 4000 7500 8675 13500 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: $25,000-49,999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2100 3033 5170 6001 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: $50,000-74999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 6000 12000 13073 18500 35000
## --------------------------------------------------------
## rawprosper$IncomeRange: $75,000-99,999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 4000 9700 10366 15000 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: $100,000+
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2052 4000 4274 5000 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: Not employed
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2500 4000 4885 6000 25000
## --------------------------------------------------------
## rawprosper$IncomeRange: Not displayed
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2500 5000 7411 10000 25000
从不同的收入水平和借款额度来分析,借款额度基本上都集中在2500-14000之间。但是高水平收入中借款额度相对较小(主要集中在2052-5000),从投资角度看,如果其债务收入比较低,整体投资稳定性肯定是要高于低收入甚至无收入的借款人。对于无收入的借款人存在大额借款,此类投资风险较高。从借款额度和收入水平来看,对收入在25,000-100,000的借款人相对较合理。但是还需要综合考虑借款人对债务收入比以及其他相关信息
# debet to income ratio in different income range
p1 <- ggplot(aes(x=IncomeRange, y=DebtToIncomeRatio), data=rawprosper) +
geom_violin(fill="#FAF0E6") +
labs(y="Debet To Income Ratio", x="Income Range",
title="Fig 18 Debet To Income Ratio Of Different Income Range") +
theme(axis.text=element_text(size=6), plot.title=element_text(size=10, color="#006400"),
axis.title=element_text(size=10))
p2 <- ggplot(aes(DebtToIncomeRatio), data=rawprosper) +
geom_histogram() +
facet_wrap(~IncomeRange, nrow=2, scale="free_y") +
labs(x="Debt To Income Ratio", y="Freqency",
title="Fig 19 Histogram About Debt To Income Ratio In different Income") +
theme(axis.text=element_text(size=6), plot.title=element_text(size=10, color="#006400"),
axis.title=element_text(size=10))
grid.arrange(p1, p2, nrow=2)
# info about debt to income ratio in different income range
by(rawprosper$DebtToIncomeRatio, rawprosper$IncomeRange, summary)
## rawprosper$IncomeRange: $0
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.2 0.3 0.3 0.4 7.9 2311
## --------------------------------------------------------
## rawprosper$IncomeRange: $1-24,999
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.2 0.2 0.2 0.3 10.0 1690
## --------------------------------------------------------
## rawprosper$IncomeRange: $25,000-49,999
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 0.09 0.16 0.30 0.26 10.01 124
## --------------------------------------------------------
## rawprosper$IncomeRange: $50,000-74999
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.1 0.2 0.2 0.2 10.0 1266
## --------------------------------------------------------
## rawprosper$IncomeRange: $75,000-99,999
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.1 0.2 0.2 0.3 2.5 901
## --------------------------------------------------------
## rawprosper$IncomeRange: $100,000+
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.2 0.3 0.7 0.5 10.0 913
## --------------------------------------------------------
## rawprosper$IncomeRange: Not employed
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.2 0.3 3.3 10.0 10.0 728
## --------------------------------------------------------
## rawprosper$IncomeRange: Not displayed
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## NA NA NA NaN NA NA 621
# group income range about debt to income ratio over 10
rawprosper %>%
filter(DebtToIncomeRatio >=10.0) %>%
group_by(IncomeRange) %>%
summarise(ratio_over_10=n())
## # A tibble: 5 x 2
## IncomeRange ratio_over_10
## <ord> <int>
## 1 $1-24,999 1
## 2 $25,000-49,999 59
## 3 $50,000-74999 1
## 4 $100,000+ 187
## 5 Not employed 24
从Fig 18不同收入水平的收入和债务收入比的Violin图、Fig 19的直方图以及分析数据中,可以看出有大部分的借款人都能将债务收入比控制在0.15至0.3之间——从借款人和投资人的角度来说,能够良好的控制债务收入的关系才是获取稳健投资和借款的可能性。但是在Fig 19中表现出了一个明显的问题,未工作的借款人和高收入者(收入超过100,000)中存在债务收入比超过10的借款人,虽然总体数量偏少(交易数量有272笔——其中高收入高债务比的借款人交易数为187,而未工作高债务比的借款人交易数为24)。高收入者的高债务比可能是发生了临时性借款,但是从投资角度都需要警惕此类交易行为。
ggplot(aes(LoanOriginalAmount), data=rawprosper) +
geom_histogram(bins=30) +
facet_grid(Term~., scales ="free") +
my_theme +
labs(x="Loan Original Amount", y="Frequency",
title="Fig 20 Histogram About Loan Amount Of Facet Different Term") +
scale_x_continuous(limits=c(0, 37000), breaks=seq(0, 37000, 2000))
ggplot(aes(x=factor(Term), y=LoanOriginalAmount), data=rawprosper) +
geom_boxplot() +
geom_rug(sides="left", alpha=0.2,color="#8B008B") +
my_theme +
labs(x="Loan Term", y="Loan Original Amount",
title="Fig 21 Boxplot About Loan Amount Of Different Term") +
stat_summary(fun.y=mean, geom = 'point',shape = 4) +
stat_summary(fun.y = mean,geom = 'smooth',aes(group = 1)) # add mean point and line
##
## 12 36 60
## 1614 87778 24545
## # A tibble: 18 x 4
## # Groups: LoanAmount [18]
## LoanAmount `12` `36` `60`
## * <fctr> <int> <int> <int>
## 1 (0,2e+03] 446 11800 294
## 2 (2e+03,4e+03] 667 26482 2709
## 3 (4e+03,6e+03] 187 12213 1508
## 4 (6e+03,8e+03] 110 9024 2006
## 5 (8e+03,1e+04] 81 10341 5092
## 6 (1e+04,1.2e+04] 17 2714 1337
## 7 (1.2e+04,1.4e+04] 13 1817 1400
## 8 (1.4e+04,1.6e+04] 69 7231 5932
## 9 (1.6e+04,1.8e+04] 4 846 442
## 10 (1.8e+04,2e+04] 11 2382 1477
## 11 (2e+04,2.2e+04] 1 243 160
## 12 (2.2e+04,2.4e+04] 1 297 188
## 13 (2.4e+04,2.6e+04] 7 2060 1664
## 14 (2.6e+04,2.8e+04] NA 22 25
## 15 (2.8e+04,3e+04] NA 65 49
## 16 (3e+04,3.2e+04] NA 17 18
## 17 (3.2e+04,3.4e+04] NA 15 18
## 18 (3.4e+04,3.6e+04] NA 209 226
## rawprosper$Term: 12
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 2000 3500 4694 5000 25000
## --------------------------------------------------------
## rawprosper$Term: 36
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 3000 5000 7276 10000 35000
## --------------------------------------------------------
## rawprosper$Term: 60
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2000 8000 11500 12370 15000 35000
从分析数据来看,三种还款时长中选择中期(36个月)的交易量最多,达到了87,778笔;其次是长期(60个月)的交易量,达到量24,545笔。在Fig 20不同还款时长的借款额度来看,选择短期(12个月)还款的策略中,主要的借款额度集中在2,000-4,000之间;而借款额度在2,000-15,000范围的长期选择长期还款的交易量,相对来说分布比较均匀。但是在8,000-10,000范围和14,000-16,000范围内的长期还款策略的交易数,异常的高分别达到量5092笔和5932笔。从分析和预测来看,借款额度和还款策略可能与收入等存在相关性,需要进一步分析。
##
## Pearson's product-moment correlation
##
## data: DebtToIncomeRatio and EmploymentStatusDuration
## t = -3.6, df = 98000, p-value = 3e-04
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.017872 -0.005345
## sample estimates:
## cor
## -0.01161
对图形进行缩放月数等进行分析工作时限和债务收入比的平均值之间进行分析,不同工作年限的借款人基本都能将债务收入比控制在0.3左右,但是在工作年限超过55年的借款人存在异常变化。根据实际情况,推测可能有有部分用户的数据存在异常。分析两者的相关性,两者的相关系数偏小(-0.01161),但是两者具有显著性统计意义。
##
## Pearson's product-moment correlation
##
## data: Investors and LoanOriginalAmount
## t = 140, df = 110000, p-value <2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3751 0.3850
## sample estimates:
## cor
## 0.3801
投资人人数和借款额度的相关系数达到了0.381,而且随着投资额度的增加,表现出需要投资人数也增加。因为这样不仅降低了投资人的风险,而且满足了借款人的高额借款的需求。
针对单变量分析和双变量分析,已经了解了借款额度、债务收入比、工作时限以及不同信用水平相关的大致关系。Prosper平台的借款人总体能够控制好个人的债务比率,这个和工作时限和收入水平表现上没有太多的异常——但是在某些个人借款中确实存在债务过高。接下来需要从信用等级、收入水平以及预期投资回报等方面,进行细致分析投资可行性。
从Fig 24中显示的结果来看,高信用等级并没有表现出高收益的可能性。例如AA级的预期损失反而是最高的,而在B、D以及E级中反而存在预期高收益的可能性。这种分布可能是因为评级是从2009年开始的,评级会随着时间而发生不同变化,所以引入年份作为参考依据再进行分析。
对借款利率、每月还款数和借款额度进行分析,如Fig 28显示,总体上来看随着借款额度的增加,借款人每月还款额也是相应增大,同时在一定的每月还款额和借款额度上,体现出了借款利率越低每月还款额越少——这是因为低利率情况下,产生的利息越低。其中选择借款利率在[0.3,0.4)范围内的,表现出是单一线性递增的特性。
根据随机抽取数据集中1000个观测值,分析变量中的相关性。发现预计对投资收益和损失有强相关性的变量有ProsperScore,LoanOriginalAmount,ProsperRatingNumeric,BorrowerRate,Investors。针对以上几个变量和投资收益进行线性分析。
##
## Calls:
## lm_1: lm(formula = EstimatedReturn ~ EstimatedLoss, data = rawprosper)
## lm_2: lm(formula = EstimatedReturn ~ EstimatedLoss + ProsperScore,
## data = rawprosper)
## lm_3: lm(formula = EstimatedReturn ~ EstimatedLoss + ProsperScore +
## LoanOriginalAmount, data = rawprosper)
## lm_4: lm(formula = EstimatedReturn ~ EstimatedLoss + ProsperScore +
## LoanOriginalAmount + ProsperRatingNumeric, data = rawprosper)
## lm_5: lm(formula = EstimatedReturn ~ EstimatedLoss + ProsperScore +
## LoanOriginalAmount + ProsperRatingNumeric + BorrowerRate,
## data = rawprosper)
## lm_6: lm(formula = EstimatedReturn ~ EstimatedLoss + ProsperScore +
## LoanOriginalAmount + ProsperRatingNumeric + BorrowerRate +
## Investors, data = rawprosper)
##
## ========================================================================================================================
## lm_1 lm_2 lm_3 lm_4 lm_5 lm_6
## ------------------------------------------------------------------------------------------------------------------------
## (Intercept) 0.065*** 0.062*** 0.065*** 0.223*** -0.036*** -0.034***
## (0.000) (0.000) (0.000) (0.001) (0.000) (0.000)
## EstimatedLoss 0.384*** 0.396*** 0.385*** -0.430*** -1.033*** -1.035***
## (0.002) (0.002) (0.003) (0.006) (0.001) (0.001)
## ProsperScore 0.000*** 0.000*** 0.002*** 0.001*** 0.001***
## (0.000) (0.000) (0.000) (0.000) (0.000)
## LoanOriginalAmount -0.000*** -0.000*** -0.000*** -0.000***
## (0.000) (0.000) (0.000) (0.000)
## ProsperRatingNumeric -0.026*** 0.003*** 0.002***
## (0.000) (0.000) (0.000)
## BorrowerRate 1.018*** 1.015***
## (0.001) (0.001)
## Investors 0.000***
## (0.000)
## ------------------------------------------------------------------------------------------------------------------------
## R-squared 0.349 0.350 0.351 0.480 0.985 0.985
## adj. R-squared 0.349 0.350 0.351 0.480 0.985 0.985
## sigma 0.025 0.025 0.024 0.022 0.004 0.004
## F 45557.949 22820.019 15294.257 19550.113 1089295.596 920585.896
## p 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood 194242.693 194269.566 194348.588 203721.091 353238.315 353825.625
## Deviance 51.033 51.000 50.905 40.815 1.203 1.187
## AIC -388479.386 -388531.132 -388687.176 -407430.181 -706462.631 -707635.250
## BIC -388451.340 -388493.737 -388640.433 -407374.089 -706397.190 -707560.460
## N 84853 84853 84853 84853 84853 84853
## ========================================================================================================================
从线性分析的结果来看,投资收益在Prosper信用评分上总体是表现越高得分收益越高,但是随着其他因素的加入,表现不是反而出现负斜率关系。这个在分析贷款总额和信用等级时,有同样的影响——并不是高等级会高额借款。其中借款利率表现的参数作用比较优异,它和借款额度进行分析时也出现相似结果。但是在其他做投资收益分析参数,表现并不是很突出。因为该线性分析只是大概的分析,对分类型数据,如收入范围暂,时没有进行分析。所以如果要深入分析,需要利用其他工具再分析。
Fig A 展示了工作不同工作年限,借款人对个人的债务收入比的控制情况。从以上的面积图可以看出,大部分的借款人的债务收入比都是控制在0.6以内——这点在属于正常工作年限内的借款人表现明显。控制债务收入比的方面,并没有因为工作年限表现出很大太大差异,都是相对稳定的。但是在退休后的借款人出现较大波动。
从以上图形中,不同年份的分布来看,确实如预期一样——因为是2009年初期建立评级制度,高信用等级的借款人的收益反而没有次等级的借款人的收益高。但是随着时间的变化,高等级低收益并没有继续出现。另一方面随着时间的变化,预期收益率却是向0.05-0.15之间收拢。
## # A tibble: 10 x 13
## # Groups: Year [10]
## Year Cancelled Chargedoff Completed Current Defaulted
## * <chr> <int> <int> <int> <int> <int>
## 1 2005 NA NA 22 NA NA
## 2 2006 4 952 3577 NA 1373
## 3 2007 NA 2938 6936 NA 1586
## 4 2008 1 2758 7743 NA 1050
## 5 2009 NA 232 1736 NA 79
## 6 2010 NA 750 4688 19 187
## 7 2011 NA 1798 5488 3261 347
## 8 2012 NA 2265 5518 10487 357
## 9 2013 NA 299 2297 30743 39
## 10 2014 NA NA 69 12066 NA
## # ... with 7 more variables: FinalPaymentInProgress <int>, `Past Due (>120
## # days)` <int>, `Past Due (1-15 days)` <int>, `Past Due (16-30
## # days)` <int>, `Past Due (31-60 days)` <int>, `Past Due (61-90
## # days)` <int>, `Past Due (91-120 days)` <int>
将时间纳入分析范畴分析(Fig C),发现随着时间变化AA级账户总体借款额度都偏低,同时借款利率偏高;另一方面,低等级用户反而更容易获得低利率,二缺随着时间变化,借款额度在不断提升,其中D级和C级表现明显。最优级借款人尽在2009年得到过低借款率,但是都保持在0.2左右。而A级基本都是在低利率,高借款额度
从结果推测可能是平台的主要激励措施还是针对高额度借款用户,同时保有稳定的A级优质借款人。但是可能存在最优级用户的流失风险——需要通过了解Prosper平台的经营方针进行验证
本次分析从分析借款人的特征开始分析,到借款额度、收益等变量分析,最终是为了认识在Prosper平台选择合适的投资可以选择的可行的参考参数。本次分析的结果主要如下: 1. 从2005年11月分至2014年3月,Prosper平台发展总体是稳步上升——虽然2009年因客观原因发生了业务暂停。但是进入2014年后,交易数量和交易额度都在出现了急剧下降,从当时来看需要加强关注该平台的经营策略和方针,以确认是否需要调整投资策略 2. 借款人总体都能控制好个人的债务收入比例,但是借款的收入表现并不是很理想——主要的借款人集中在低收入或者没有收入的借款人,并且高收入者借款额度都偏低。从Fig C各年度的债务状态来看,总体还款请款还是比较理想;另外也表现出选择中期还款策略的借款人角度,而在2011年之后选择长期债务的人数也在增加 3. 信用等级对借款利率并没有表现出优势,反而在次高级和中等信用的用户具有低借款利率优势 4. 投资人数,整体表现出随着借款额度增加投资人数也增加的趋势